智能论文笔记

Feature Selective Likelihood Ratio Estimator for Low- and Zero-frequency N-grams

Masato Kikuchi , Mitsuo Yoshida , Kyoji Umemura , Tadachika Ozono

分类：自然语言处理

2021-11-05

在自然语言处理（NLP）中，通常从频率信息估计n-gram的似然比（LR）。然而，语料库只包含可能的n克的一小部分，并且它们中的大多数很少发生。因此，我们希望LR估算器用于低频和零频率N-GRAM。实现这一目标的一种方法是将n-gram分解成离散值，例如字母和单词，并占据LRS的乘积。但是，因为该方法处理大量离散值，所以估计的运行时间和内存用法是有问题的。此外，使用不必要的离散值会导致估计精度的恶化。因此，本文提出将上述方法与文档分类中使用的特征选择方法相结合，并表明我们的估计器为低频和零频率提供了有效和有效的估计结果。

translated by 谷歌翻译

相关文章
笔记